rlbff

NVIDIA团队重新定义AI训练规则：让机器像人类一样理解对错标准

这项由NVIDIA团队的王志林、曾佳琦、Olivier Delalleau等人领导的研究发表于2025年9月，论文题目为"RLBFF: Binary Flexible Feedback to Bridge Between Human Feedback & Ve